Partial label learning (PLL) is a typical weakly supervised learning, where each sample is associated with a set of candidate labels. The basic assumption of PLL is that the ground-truth label must reside in the candidate set. However, this assumption may not be satisfied due to the unprofessional judgment of the annotators, thus limiting the practical application of PLL. In this paper, we relax this assumption and focus on a more general problem, noisy PLL, where the ground-truth label may not exist in the candidate set. To address this challenging problem, we further propose a novel framework called "Automatic Refinement Network (ARNet)". Our method consists of multiple rounds. In each round, we purify the noisy samples through two key modules, i.e., noisy sample detection and label correction. To guarantee the performance of these modules, we start with warm-up training and automatically select the appropriate correction epoch. Meanwhile, we exploit data augmentation to further reduce prediction errors in ARNet. Through theoretical analysis, we prove that our method is able to reduce the noise level of the dataset and eventually approximate the Bayes optimal classifier. To verify the effectiveness of ARNet, we conduct experiments on multiple benchmark datasets. Experimental results demonstrate that our ARNet is superior to existing state-of-the-art approaches in noisy PLL. Our code will be made public soon.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
自动交通事故检测已吸引机器视觉社区,因为它对自动智能运输系统(ITS)的发展产生了影响和对交通安全的重要性。然而,大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集,从而限制了其效果和适用性。交通事故中现有的数据集是小规模,不是来自监视摄像机,而不是开源的,或者不是为高速公路场景建造的。由于在高速公路上发生事故,因此往往会造成严重损坏,并且太快了,无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点,我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后,在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中,使用公共主流视觉算法或框架进行了有关图像分类,对象检测和视频分类任务的各种实验,以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出,尤其是在其中。
translated by 谷歌翻译
在立体声视觉中,自相似或平淡的区域可能使得很难匹配两个图像之间的补丁。基于主动立体声的方法通过在场景上投射伪随机模式来减轻此问题,以便可以在没有歧义的情况下识别图像对的每个贴片。但是,投影模式显着改变了图像的外观。如果这种模式充当对抗性噪声的一种形式,则可能对基于深度学习的方法的性能产生负面影响,这现在是密集立体声视觉的事实上的标准。在本文中,我们提出了Active-Passive Simstereo数据集和相应的基准测试,以评估立体声匹配算法的被动立体声和活动立体声图像之间的性能差距。使用提出的基准测试和额外的消融研究,我们表明特征提取和匹配的模块选择了20个选择的基于深度学习的立体声匹配方法,可以推广到主动立体声,没有问题。但是,由于二十个体系结构(ACVNet,Cascadestereo和Stereonet)中三个的差异细化模块由于对输入图像的外观的依赖而受到主动立体声模式的负面影响。
translated by 谷歌翻译
光学图像和视频中的小对象检测(SOD)是一个具有挑战性的问题,即使是最先进的通用对象检测方法也无法准确定位和识别此类对象。通常,由于较大的摄像头距离,小物体出现在现实世界中。由于小物体仅占据输入图像中的一个小区域(例如,少于10%),因此从这样的小区域中提取的信息并不总是足够丰富,足以支持决策。在深度学习和计算机愿景的界面上工作的研究人员正在开发多学科策略,以增强基于SOD深度学习的方法的性能。在本文中,我们对2017年至2022年之间发表的160篇研究论文进行了全面评论,以调查这一不断增长的主题。本文总结了现有文献,并提供了一种分类法,以说明当前研究的广泛了解。我们研究了如何在海上环境中提高小物体检测的性能,在海上环境中,提高性能至关重要。通过建立通用和海上SOD研究之间的联系,已经确定了未来的方向。此外,讨论了用于通用和海上应用程序的SOD的流行数据集,并提供了一些数据集的最新方法的众所周知的评估指标。
translated by 谷歌翻译
深度推荐系统共同利用检索和排名操作来产生建议结果。猎犬的目标是从整个项目中选择一小部分相关候选人,并具有高效率;尽管通常更精确但耗时的排名者应该以高精度识别检索到的候选人中的最佳项目。但是,猎犬和排名通常以较差的方式接受培训,从而在整体工作时会导致建议表现有限。在这项工作中,我们提出了一个新颖的DRS培训框架Corr(合作猎犬和Ranker的缩写),可以在其中相互加强猎犬和Ranker。一方面,从推荐数据和通过知识蒸馏的排名中学到了猎犬​​。知道排名更精确,知识蒸馏可能会为改善检索质量提供额外的弱点信号。另一方面,通过学习将真相的积极项目与从猎犬采样的硬性负面候选人中区分出来,对排名者进行了训练。随着迭代的进行,排名可能会变得更加精确,作为回报,这引起了猎犬的信息培训信号。同时,随着猎犬的改善,可以采样较难的负候选者,这有助于排名更高的判别能力。为了促进CORR的有效行为,引入了KL差异的渐近均匀近似,以便对采样项目进行知识蒸馏。此外,开发了一种可扩展和自适应策略,以有效地从猎犬那里进行采样。全面的实验研究是在四个大规模基准数据集中进行的,其中CORR改善了由于猎犬和Ranker之间的合作而产生的总体建议质量。
translated by 谷歌翻译
我们将受约束的线性数据特征映射模型提出作为使用卷积神经网络(CNN)的图像分类的可解释数学模型。从这个角度来看,我们建立了线性系统的传统迭代方案与Reset-and Mgnet型模型的基本块体系结构之间的详细连接。使用这些连接,我们介绍了一些修改的Reset模型,与原始模型相比具有更少的参数,但可以产生更准确的结果,从而展示该受约束的学习数据特征映射假设的有效性。基于此假设,我们进一步提出了一般的数据特征迭代方案来展示MGNet的合理性。我们还对MGNet提供系统的数值研究,以显示其在图像分类问题中的成功和优势,并展示其与已建立的网络相比的优点。
translated by 谷歌翻译
在本文中,我们提出了一种新的序列验证任务,该任务旨在区分从具有阶梯级变换的负面的正视频对,但仍然进行相同的任务。这种具有挑战性的任务驻留在没有先前操作检测或需要事件级别甚至帧级注释的分段的开放式设置。为此,我们仔细重新组成了具有步骤过程任务结构的两个公开的动作相关的数据集。为了充分调查任何方法的有效性,我们收集了统计化学实验中各种步进变换的脚本视频数据集。此外,引入了一种新的评估度量加权距离比以确保评估期间不同的步进级变换等效。最后,基于具有新序列对准损耗的变压器的简单但有效的基线被引入到更好地表征步骤之间的长期依赖性,这优于其他动作识别方法。将发布代码和数据。
translated by 谷歌翻译
人工智能(AI)系统在许多领域越来越受欢迎。尽管如此,AI技术仍在开发阶段,并且需要解决许多问题。其中,需要对AI系统进行展示的可靠性,以便AI系统可以充满信心地由公众信任使用。在本文中,我们提供了AI系统可靠性的统计视角。与其他因素不同,AI系统的可靠性专注于时间尺寸。也就是说,系统可以针对预期时段执行其设计的功能。我们为AI可靠性研究引入了所谓的智能统计框架,包括五个组件:系统结构,可靠性度量,故障原因分析,可靠性评估和测试规划。我们审查了可靠性数据分析和软件可靠性的传统方法,并讨论如何为可靠性建模和AI系统进行评估来转换现有方法。我们还描述了最近的建模和分析AI可靠性和概述统计研究挑战的发展,包括分销检测,训练集,对抗攻击,模型准确性和不确定性量化的影响,以及讨论这些主题可以与AI可靠性有关,具有说明性示例。最后,我们讨论了AI可靠性评估的数据收集和测试计划以及如何提高系统设计,以获得更高的AI可靠性。本文结束了一些结论备注。
translated by 谷歌翻译
随着垂直起飞和着陆和长航时的特点,倾转旋翼吸引了相当多的关注近几十年来其在民用和科研应用潜力。然而,强耦合,非线性特性和不匹配的干扰的问题,不可避免地存在于倾转旋翼机,它带来的过渡模式控制器的设计极大的挑战。在本文中,我们结合一个超扭曲扩张状态观测器(STESO)具有自适应递归滑模控制(ARSMC)一起使用STESO-ARSMC(SAC)来设计以过渡模式倾转旋翼飞行器姿态系统控制器。首先,六个自由度的倾转旋翼的(DOF)的非线性数学模型被建立。其次,美国和干扰是由STES观察者估计。第三,ARSM控制器旨在实现有限时间内收敛。 Lyapunov函数用来作证的倾转旋翼无人机系统的融合。新的方面是,状态的评估被并入控制规则来调整中断。相较于先前技术,控制系统,这项工作可以大大提高抗干扰性能提出。最后,模拟试验,是要证明建议的技术的有效性。
translated by 谷歌翻译